JSAI2026 Jagle: 視覚言語モデルのための大規模日本語マルチモーダル事後学習データセットの構築
テーマ
日本語の視覚言語モデルを強化するための、大規模マルチモーダル事後学習データセット構築
画像と言語を組み合わせた日本語タスクに強いVLMを作るための基盤整備
背景課題
既存のVLM学習データは英語中心
日本語の大規模・多カテゴリな公開データセットは不足している
既存の日本語VLM用データは、自然画像VQAに偏りがある
文書・図表・OCR系の実用タスクが弱い
提案
Jagleという日本語マルチモーダル事後学習データセットを構築
約940万事例
6カテゴリ、18サブセットで構成
データ構築の方針
既存データセットを活用しつつ、不足領域は独自に作成
Wikipedia、Web画像、PDF、行政文書、図表画像などを利用
気になる daiiz.icon
いい感じの図表画像のデータセットがあれば知りたい
#聴講メモ